前処理(第6章 固有表現認識)
日本語テキストの処理では、見た目が同じ文字は統一し、文字の結合も行うNFKCがよく用いられます。(Kindle の位置No.3944-3945)
今回のデータセットはストックマークで公開した時点でNFKCで正規化済み
トークナイゼーション
文字単位でトークナイゼーションを行うモデル
しかし、モデルの性能や計算効率などの面で、サブワード単位でトークナイゼーションを行うモデルの方が優れていることが多い (Kindle の位置No.3982-3983)
サブワード単位はある程度の意味のまとまり
実装としては、文字列を1文字ずつ取り出せばよい
サブワード単位でトークナイゼーション
ロードして、tokenizeメソッドを呼ぶ
special_characterがつかない
tokenizeの代わりに、encode + convert_ids_to_tokens
special_characterを含める
アライメント
サブワードベースのBERTを用いるとき、文字列とトークン列の各要素の位置を対応させる必要があります。(Kindle の位置No.4005-4006)
系列ラベリングのためのラベル作成
トークン列と同じ長さのラベル列を用意する